Classification et régionalisation
Application aux résultats des élections européennes de 2024 en France métropolitiane
Le résumé de votre fiche dans cet encart
Introduction
1 ECHELLE REGIONALE : PRINCIPES DE BASE
Afin de bien comprendre la différence entre classification et régionalisation et l’importance de la pondération, nous allons commencer par un exemple très simple portant sur la distribution des votes pour les deux principales listes d’extrême droite dans les 12 régions de France Métropolitaine.
1.1 Présentation des données
On calcule le pourcentage de suffrages exprimés pour les listes conduites par Jordan Bardella (liste n°5 , RN) et Marion Maréchal (liste n°3, Reconquête) à l’échelle des 12 régions de France Métropolitaine (hors Corse). On obtient le tableau suivant :
| regi | regi_code | regi_nom | Bardella | Marechal |
|---|---|---|---|---|
| 11 | IDF | Île-de-France | 18.8 | 5.7 |
| 24 | CVDL | Centre-Val de Loire | 34.9 | 5.4 |
| 27 | BOFC | Bourgogne-Franche-Comté | 37.1 | 5.3 |
| 28 | NORM | Normandie | 35.3 | 4.6 |
| 32 | HDFR | Hauts-de-France | 42.4 | 4.6 |
| 44 | GEST | Grand Est | 38.3 | 5.5 |
| 52 | PDLO | Pays de la Loire | 27.6 | 4.7 |
| 53 | BRET | Bretagne | 25.6 | 4.2 |
| 75 | NAQU | Nouvelle-Aquitaine | 30.9 | 5.0 |
| 76 | OCCI | Occitanie | 33.7 | 5.5 |
| 84 | AURA | Auvergne-Rhône-Alpes | 30.9 | 5.6 |
| 93 | PACA | Provence-Alpes-Côte d’Azur | 38.6 | 7.7 |
1.1.1 Paramètres principaux
L’examen des paramètres statistiques des deux listes est effectué à l’intérieur des 12 régions étudiées en excluant la Corse et les DROM. Les valeurs sont dont légèrement différentes des résultats obtenus pour la France entière.
| minimum | maximum | moyenne | écart-type | variance | coeff. variation (%) | |
|---|---|---|---|---|---|---|
| Bardella | 18.8 | 42.4 | 32.9 | 6.5 | 42.7 | 19.9 |
| Marechal | 4.2 | 7.7 | 5.3 | 0.9 | 0.8 | 16.7 |
Commentaire : La liste Bardella obtient une moyenne (non pondérée) de 32.9% dans les 12 régions avec des scores allant de 18.8% en Ile-de-France à 42.7% dans les Hauts-de-France. La liste Maréchal affiche quant à elle des scores de 4.2% en Bretagne à 7.7% en PACA avec une moyenne de 5.3%. La variation absolue des résultat, mesurée par l’écart-type est logiquement beaucoup plus forte pour Bardella (\(\sigma=6.5\)) que pour Maréchal (\(\sigma=0.9\)). Mais les variations relatives mesurées par le coefficient de variation (rapport entre l’écart-type et la moyenne) sont assez voisines avec 19.9% pour Bardella et 16.7% pour Maréchal.
1.1.2 Distribution spatiale
On cartographie la distribution des deux variables en quatre classes à l’aide de la méthode des quantiles (soit trois régions par classe) et on examine la forme des histogrammes correspondant.
Commentaire : la distribution des votes Bardella est légèrement dissymétrique à droite avec une valeur exceptionellement faible correspondant à l’Ile-de-France. La distribution de Maréchal est au contraire dissymétrique à gauche avec une valeur exceptionnellement forte correspondant à la région PACA. La comparaison des deux distributions spatiales ne semble pas révéler à première vue de corrélation positive ou négative ce qui est confirmé par les coefficients de Pearson (\(r=0.20, p =0.53\)) ou de Spearman (\(\rho =+0.03, p=0.94\))
1.2 Matrices de dissimilarité
En amont d’une classification ou d’une régionalisation, la création d’une matrice de dissimlilarité entre les unités spatiales est une étape essentielle qui conditionne la suite des analyses. Deux choix essentiels interviennet alors :
- le choix d’une transformation ou non des indicateurs
- le choix d’une métrique
1.2.1 Espace des variables brutes
La variance des scores de la variable X1 (Bardella) est beaucoup plus forte que celle de la variable X2 (Marechal), ce qui signifie que si l’on s’en tient aux variables brutes, les différences entre régions seront liées essentiellement aux variations de la liste X1. Les différentes unités spatiales se positionneront alors dans un espace de la forme suivante :
Commentaire : sur la figure ci-dessus on a pris soin de construire deux axes orthonormées où une différence d’un point de pourcentage correspond à la même distance horizontalement et verticalement. Il est donc logique que la figure soit beaucoup plus étendue dans le sens horizontal que dans le sens vertical puisque le vote Bardella crée plus de différences entre les régions en valeur absolue que le vote Maréchal
On voit visuellement sur la figure précédente que les points représentant les unités spatiales sont plus ou moins éloignés, la distance qui les sépare étant une mesure de leur dissimilarité en matière de vote pour les deux listes considérées. Deux mesures de distances peuvent alors classiquement être utilisées pour convertir les positions en matrice de distance, la distance euclidienne (\(D^{Euc}\)) et la distance de Manhattan (\(D^{Man}\)).
\(D^{Euc}(i,j) = \sqrt{\sum_{k=1}^K (X_{ik}-X_{jk})^2}\)
\(D^{Man}(i,j) = \sum_{k=1}^K |X_{ik}-X_{jk}|\)
Les deux solutions donnant des résultats assez voisins on se limitera ici à l’analyse de la matrice des distances euclidiennes.
| Dissimilarité en distance euclidienne brute | ||||||||||||
| IDF | CVDL | BOFC | NORM | HDFR | GEST | PDLO | BRET | NAQU | OCCI | AURA | PACA | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| IDF | 0.0 | 16.2 | 18.3 | 16.6 | 23.6 | 19.5 | 8.9 | 6.9 | 12.2 | 14.9 | 12.1 | 20.0 |
| CVDL | 16.2 | 0.0 | 2.2 | 0.9 | 7.5 | 3.4 | 7.3 | 9.4 | 4.0 | 1.3 | 4.0 | 4.4 |
| BOFC | 18.3 | 2.2 | 0.0 | 1.9 | 5.4 | 1.3 | 9.5 | 11.6 | 6.2 | 3.4 | 6.2 | 2.9 |
| NORM | 16.6 | 0.9 | 1.9 | 0.0 | 7.1 | 3.1 | 7.7 | 9.8 | 4.4 | 1.9 | 4.5 | 4.5 |
| HDFR | 23.6 | 7.5 | 5.4 | 7.1 | 0.0 | 4.2 | 14.8 | 16.8 | 11.5 | 8.8 | 11.5 | 4.9 |
| GEST | 19.5 | 3.4 | 1.3 | 3.1 | 4.2 | 0.0 | 10.7 | 12.8 | 7.4 | 4.6 | 7.4 | 2.2 |
| PDLO | 8.9 | 7.3 | 9.5 | 7.7 | 14.8 | 10.7 | 0.0 | 2.1 | 3.3 | 6.1 | 3.4 | 11.4 |
| BRET | 6.9 | 9.4 | 11.6 | 9.8 | 16.8 | 12.8 | 2.1 | 0.0 | 5.4 | 8.2 | 5.5 | 13.5 |
| NAQU | 12.2 | 4.0 | 6.2 | 4.4 | 11.5 | 7.4 | 3.3 | 5.4 | 0.0 | 2.8 | 0.6 | 8.2 |
| OCCI | 14.9 | 1.3 | 3.4 | 1.9 | 8.8 | 4.6 | 6.1 | 8.2 | 2.8 | 0.0 | 2.8 | 5.4 |
| AURA | 12.1 | 4.0 | 6.2 | 4.5 | 11.5 | 7.4 | 3.4 | 5.5 | 0.6 | 2.8 | 0.0 | 8.0 |
| PACA | 20.0 | 4.4 | 2.9 | 4.5 | 4.9 | 2.2 | 11.4 | 13.5 | 8.2 | 5.4 | 8.0 | 0.0 |
Commentaire : La plus forte dissimilarité est observée entre la région Ile-de-France (IDF) et la région Hauts-de-France (HDFR) et la plus faible entre les régions Centre Val de Loire (CVDL) et Normandie (NORM). En comparant la matrice de dissimilarité au graphique orthonormé précédent, on comprend que les différences entre unités spatiales sont essentiellement produites par les variations du vote Bardella qui possède une plus forte variance que le vote Maréchal. Ce dernier n’introduit que des différenciations secondraires.
1.2.2 Espace des variables standardisées
Si le choix de la métrique euclidienne ou de la métrique de Manhattan introduit peu de différences dans les matrices de dissimilarité, il en va tout autrement de la standardisation des variables qui consiste à ramener chaque indicateur à une même moyenne (\(\mu = 0\)) et surtout un même écart-type (\(\sigma = 1\)).
\(X^*_i = \frac{X_i - \mu_X}{\sigma_X}\)
Pour bien apprécier la différence, onpeut commencer par visualiser les distances (donc les dissimilarités) dans l’espace des variables standardisées en adoptant comme précédemment un repère orthonormé mais dont l’unité de mesure est l’écart-type et non plus les points de pourcentage :
Les distances euclidiennes dans ce nouvel espace des variables standardisées sont évidemment différentes de celles que l’on avait obtenu dans l’espace des variables brutes.
| Dissimilarité en distance euclidienne standardisée | ||||||||||||
| IDF | CVDL | BOFC | NORM | HDFR | GEST | PDLO | BRET | NAQU | OCCI | AURA | PACA | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| IDF | 0.0 | 2.5 | 2.8 | 2.8 | 3.8 | 3.0 | 1.7 | 1.9 | 2.0 | 2.3 | 1.9 | 3.8 |
| CVDL | 2.5 | 0.0 | 0.4 | 0.9 | 1.5 | 0.5 | 1.4 | 2.0 | 0.8 | 0.2 | 0.6 | 2.6 |
| BOFC | 2.8 | 0.4 | 0.0 | 0.8 | 1.1 | 0.3 | 1.6 | 2.1 | 1.0 | 0.6 | 1.0 | 2.7 |
| NORM | 2.8 | 0.9 | 0.8 | 0.0 | 1.1 | 1.1 | 1.2 | 1.6 | 0.8 | 1.0 | 1.3 | 3.5 |
| HDFR | 3.8 | 1.5 | 1.1 | 1.1 | 0.0 | 1.2 | 2.3 | 2.6 | 1.8 | 1.7 | 2.1 | 3.6 |
| GEST | 3.0 | 0.5 | 0.3 | 1.1 | 1.2 | 0.0 | 1.9 | 2.4 | 1.3 | 0.7 | 1.1 | 2.5 |
| PDLO | 1.7 | 1.4 | 1.6 | 1.2 | 2.3 | 1.9 | 0.0 | 0.6 | 0.6 | 1.3 | 1.1 | 3.8 |
| BRET | 1.9 | 2.0 | 2.1 | 1.6 | 2.6 | 2.4 | 0.6 | 0.0 | 1.2 | 1.9 | 1.7 | 4.4 |
| NAQU | 2.0 | 0.8 | 1.0 | 0.8 | 1.8 | 1.3 | 0.6 | 1.2 | 0.0 | 0.7 | 0.7 | 3.3 |
| OCCI | 2.3 | 0.2 | 0.6 | 1.0 | 1.7 | 0.7 | 1.3 | 1.9 | 0.7 | 0.0 | 0.4 | 2.6 |
| AURA | 1.9 | 0.6 | 1.0 | 1.3 | 2.1 | 1.1 | 1.1 | 1.7 | 0.7 | 0.4 | 0.0 | 2.7 |
| PACA | 3.8 | 2.6 | 2.7 | 3.5 | 3.6 | 2.5 | 3.8 | 4.4 | 3.3 | 2.6 | 2.7 | 0.0 |
Commentaire : Par rapport à la représentation dans l’espace non-standardisé il y a désormais un étirement comaprable du nuage de point dans les deux directions de l’espace standardisé. Ce résultat est logique puisque les écart-types sont désormais égaux pour les deux candidats ce qui signifie que les différences liées au vote Maréchal vont jouer le même rôle que celles liées au vote Bardella. Les deux unités spatiales les plus différentes ne sont plus l’Ile-de-France (IDF) et les Hauts-de-France (HDFR) mais la Bretagne (BRET) et la région Provence-Alpes-Côte d’Azur (PACA). Ce que l’on peut facilement vérifier en calculant la distance euclidienne sur variables standardisées.
1.2.3 Espace des variables ordinales
On pourrait transformer nos deux variables \(X_1\) et \(X_2\) en rang pour en faire des distributions uniformes insensibles au jeu des valeurs exceptionnelles. Si l’on effectue une transformation en rang, la géométrie de l’espace devient celle d’une grille de 12 x 12 positions en fonction des rangs obtenus par les unités spatiales pour le vote Bardella ou le vote Maréchal. Dans cet espace discret (sauf en cas de valeurs ex aequo) il semble logique d’utiliser la somme des différences de rang en valeur absolue, c’est-à-dire la distance de Manhattan sur les variables transformées. Cette distance correspond au plus court chemin en suivant la grille qui croise les rangs de X1 et X2 :
| Dissimilarité de Manhattan sur les rangs | ||||||||||||
| IDF | CVDL | BOFC | NORM | HDFR | GEST | PDLO | BRET | NAQU | OCCI | AURA | PACA | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| IDF | 0 | 10 | 13 | 15 | 20 | 11 | 9 | 11 | 10 | 8 | 4 | 11 |
| CVDL | 10 | 0 | 3 | 5 | 10 | 5 | 7 | 11 | 4 | 2 | 6 | 9 |
| BOFC | 13 | 3 | 0 | 4 | 7 | 4 | 8 | 12 | 5 | 5 | 9 | 8 |
| NORM | 15 | 5 | 4 | 0 | 5 | 8 | 6 | 8 | 5 | 7 | 11 | 12 |
| HDFR | 20 | 10 | 7 | 5 | 0 | 9 | 11 | 11 | 10 | 12 | 16 | 11 |
| GEST | 11 | 5 | 4 | 8 | 9 | 0 | 12 | 16 | 9 | 5 | 7 | 4 |
| PDLO | 9 | 7 | 8 | 6 | 11 | 12 | 0 | 4 | 3 | 7 | 7 | 16 |
| BRET | 11 | 11 | 12 | 8 | 11 | 16 | 4 | 0 | 7 | 11 | 11 | 20 |
| NAQU | 10 | 4 | 5 | 5 | 10 | 9 | 3 | 7 | 0 | 4 | 6 | 13 |
| OCCI | 8 | 2 | 5 | 7 | 12 | 5 | 7 | 11 | 4 | 0 | 4 | 9 |
| AURA | 4 | 6 | 9 | 11 | 16 | 7 | 7 | 11 | 6 | 4 | 0 | 9 |
| PACA | 11 | 9 | 8 | 12 | 11 | 4 | 16 | 20 | 13 | 9 | 9 | 0 |
Commentaire : On trouve désormais une distance maximale de 20 qui place à égalité la paire IDF-HDFR (plus forte distance euclidienne brute) que la paire BRET-PACA (plus forte distance euclidienne standardisée) Cette troisième solution offre donc ici une sorte de compromis entre les deux précédentes, même si elle est en réalité plus proche de la méthode standardisée que de la méthode brute.
Il existe de nombreuses autres solutions permettant de transformer le petit tableau de données en d’autres matrices de dissimilarité tout aussi légitimes que les trois présentées ci-dessus. On pourrait par exemple utiliser une autre métrique telle que distance de Tchebychev qui est la magnitude absolue maximale des différences entre les coordonnées des points.
Le point important à retenir avant de passer à la suite des analyses est que le choix de la matrice de dissimilarité exerce une influence cruciale sur les résultats des méthodes de classification ou de régionalisation qui vo,nt être mise en oeuvre. Or, ce choix est trop souvent implicite dans les logiciels de statistiques qui proposent par défaut des méthodes fondées sur la variance c’est-à-dire sur le carré des distances euclidiennes standardisées. Ce choix est le plus souvent justifié car il évite aux débutants en statistique des erreurs fatales telles que le fait de ne pas standardiser un jeu de variables hétérogènes ayant des unités de mesure et des ordres de grandeur différents. Mais il peut aussi aboutir à des résultats discutables ou du moins pas forcément les plus adaptés à la problématique.
1.3 Classification
1.3.1 Choix du critère à optimiser
Les méthodes de classification et de régionalisation ascendante hiérarchiques ont pour point commun d’opérer un regroupement des unités spatiales en allant des plus ressemblantes au moins ressemblantes. Elles fournissent un arbre de regroupement qui permet de visualiser chaque étape du regroupement et des critères permettant d’opérer un compromis entre l’homogénéité interne des classes ou régions et leur nombre.
Une bonne classification (ou une bonne régionalisation) devra comporter le moins de classes ou régions pour offrir un bon résumé. Mais également un nombre suffisant pour éviter de constituer des ensembles trop hétérogène. On utilise souvent la part de variance expliquée par la partition pour mesurer cette qualité. Mais ce choix conduit à imposer une métrique (distance euclidienne) et un algorithme (critère de Ward). Il est plus intéressant de prendre un critère plus général fonde sur le rapport entre les dissimilarité internes et externes des entités constituées. Si on s’en tient à la définition de classes ou régions homogènes comme des groupes d’unités spatiales qui se ressemblent plus entre elles qu’elles ne ressemblent aux unités spatiales des autres groupes, alors notre critère à optimiser \(H\) prendra une des formes suivantes :
\(H = \frac{Dissimilarité \space inter \space groupe}{Dissimilarité \space intra \space groupe}\)
ou
\(H = \frac{Dissimilarité \space inter \space groupe}{Dissimilarité \space totale}\)
ou
\(H = 1- \frac{Dissimilarité \space intra \space groupe}{Dissimilarité \space totale}\)
1.3.2 Choix de l’algorithme de regroupement
Une classification ascendante hiérarchique peut s’opérer selon différents algorithmes qui correspondent à différents critères d’optimisation Le critère qui semble intuitivement le plus simpleest la minimisation des distances moyennes intra-classes et la maximisation des distances moyennes inter-classes. Cette méthode du average linkage est la plus simple à comprendre. Mais il existe beaucoup d’autres algorithmes cherchant par exemple à minimiser les distances minimales (single linkage) , les distance maximales (complete linkage), les distances médianes, etc… La méthode par défaut de la plupart des logiciels de statistiques est appelée méthode de Ward qui consiste à minimiser la somme des distances entre les centres de gravité des classes ce qui la place l’analyse dans le cadre de l’analyse de la variance (Ward 1963).Cette méthode comporte toutefois des variantes qui produisent des résultats différentes comme cela a été démontré par Murtagh, Legendre (2014) et on distingue en pratique deux méthodes Ward.D et Ward.D2 qui s’appliquent à des distances simples ou des distances élevées au carré.
Pour assurer une bonne comparabilité des résultats de classification et de régionalisation, nous utiliserons ici la fonction R-base hclust() (hierarchical clustering) plutôt que la fonction HCPC() du package FactoMineR qui est plus puissante mais introduit souvent des modifications de l’algorithme de base à l’insu de l’utilisateur non averti (notamment le fait d’optimiser a posteriori les classes par une méthode de type k-means). La régionalisation sera faite à l’aide de la fonction constr.clust() du package adespatial qui reproduit fidèlement la méthode de la fonction hclust() en y ajoutant simplement une contrainte de contiguïté des unités regroupées. Pour plus de détail on se reportera à la description de la classification avec contrainte de contiguïté dans Guénard, Legendre (2022).
1.3.3 Comparaison des classifications
Nous allons examiner les résultats des classifications opérées sur les matrices de dissimilarité en distance euclidienne sur variables standardisées ou non standardisées et en distance de Manhtattan sur variables ordinales avec la même méthode Ward.D. Nous examinerons également dans chaque cas la distribution géographique des résultats pour une partition en deux classes afin de voir si les classes obtenues correspondent ou non à une régionalisation de la France
Les trois classifications aboutissent logiquement à des regroupements différents puisqu’elles sont fondées sur des matrices de dissimilarité différentes. La région Ile-de-France ne se regroupe jamais avec les régions voisines car son score pour la liste Bardella est beaucoup plus faible et son score pour la liste Maréchal un peu plus élevé. Elle se regroupe fréquemment avec les régions de l’Ouest (Bretagne, Pays-de Loire, Aquitaine) qui se caractérisent par la faiblesse relative du vote d’extrême-droite. La région PACA se regroupe quant-à elle surtout avec sa voisine d’Occitanie avec laquelle elle partage une fort vote Bardella et Maréchal. Mais elle diffère trop de la région Auvergne-Rhône-Alpes pour former un regroupement avec les régions du Nord et de l’Est. Au total, aucune des classifications n’aboutit à une régionalisation c’est-dire à une division de la France en trois sous-ensembles connexes de régions voisines.
1.4 Régionalisation
La fonction constr.hclust() du package adespatial permet
de réaliser une classification ascendante hiérarchique sous contrainte
de contiguïté en suivant un algorithme strictement comparable à celui
d’une classification. La seule différence réside dans le fait d’éliminer
des solutions en interdisant le regroupement d’unités spatiales si elles
ne sont pas voisines ou, plus précisément connexes. La procédure suit
donc le schéma suivant tiré de (Guénard, Legendre 2022) :
1.4.1 Graphe de proximité
Pour bien comprendre la différence entre classification et régionalisation, il est intéressant de visualiser cartogra^phiquement les matrices de contiguïté associés à chacune des deux méthodes.
la classification fait appel implicitement à un graphe complet qui est non planaire et dans lequel toutes les fusions d’unités spatiales en classes sont autorisées, qu’elles soient voisines ou non, connexes ou non.
la régionalisation fait de son côté appel à un graphe de contiguïté qui est de type planaire et que l’on obtient - dans l’exemple présenté ici - en détectant les régions qui ont une frontière commune. Il est facile d’obtenir ce graphe en utilisant par exemple la fonction
poly2nb()du package spdep.
Dans les analyses de classification précédents, aucune contrainte de contiguïté spatiale n’était introduite et l’on pouvait par exemple fusionner dans une même classe la Bretagne et l’Ile-de-France qui ont des profils similaires en matière de faible vote pour les listes d’extrême-droite. Dans une analyse de régionalisation, il n’est plus possible de réunir ces deux unités spatiales sauf si on y ajoute d’autres régions les reliant telles que la Normandie ou les Pays de Loire et le Centre Val de Loire. On peut donc dire qu’une régionalisation est une classification avec contraintes de proximité spatiale ou, inversement, qu’une classification est une régionalisation sans contraintes de proximité spatiale.
Il découle de ce qui précède une conséquence fondamentale qui est le fait qu’une régionalisation suppose un double choix en ce qui concerne la matrice de dissimilarité, d’une part, et la matrice de proximité d’autre part. Or, si le choix de la contiguïté administrative paraît évident dans le cas étudié ici, d’autres solutions seraient possibles pour établir un graphe de proximité aboutissant à d’autres formes de régionalisation. On peut en donner rapidement deux exemples.
- Une triangulation de Delaunay pourrait par exemple
être établie entre les centres des unités spatiales, qui aboutirait
également à un graphe planaire mais ne respecterait pas forcémentn le
critère de présence d’une frontière commune. On peut la réaliser
facilement avec la fonction
tri2nb()du package spdep. - La méthode des k plus proches voisins pourrait
également servir à déterminer pour chaque unité spatiale les k plus
proches en prenant comme critère la distance à vol d’oiseau entre leurs
centres. On réalise facilement le graphe à l’aide des fonctions
knearneigh()etknn()du package spdep. On obtient alors un graphe non planaire mais où chaque unité spatial aurait des nombres de voisins plus proches que dans le cas du graphe de contiguïté (mais pas forcément égal).
Comme on peut le voir sur les cartes ci-dessus, il est possible de produire des régionalisations avec contrainte de proximité spatiale qui ne s’appuient pas obligatoirement sur le critère de contiguïté et de présence d’une frontière commune. Dans le cas de la triangulation de Voronoi il devient possible de regrouper par exemple la région PACA avec la région BOFC sans être obligé d’y inclure la région AURA. Inversement, dans le cas de la méthode des trois plus proches voisins il n’est plus possible de fusionner directement les régions AURA et NAQU bien qu’elles possèdent une frontière commune. Les résultats seront toujours des régionalisations dans la mesure où il existera bien une contrainte de proximité spatiale. Mais le résultat fera apparaître des groupes d’unités spatiales qui semblent disjointes sur une carte mais ne le sont pas dans le graphe de proximité choisi.
1.4.2 Régionalisation
Comme dans le cas de la classification, il existe de nombreux
algorithmes possible pour regrouper les unités spatiales en cherchant à
minimiser les dissimilarités intra-régionales. Nous nous limiterons ici
à l’algorithme de régionalisation réalisé par la fonction
constr.hclust() du package adespatial qui présente
l’intérêt d’utiliser exactement les mêmes formules de calcul que la
fonction hclust() de R-base et offre une parfaite
possibilité de comparaison des résultats entre les deux approches. Pour
éviter de multiplier les exemples, nous nous limiterons ici à l’analyse
des régionalisations fondées sur une matrice de contiguïté, en reprenant
les trois matrices de dssimilarité précédentes.
Comme dans le cas de la classification (Cf. supra) on observe tout d’abord une forte variation des résultats selon le choix de la matrice de dissimilarité. On retrouve également une tendance à l’isolement des régions IDF et PACA qui forment à nouveau du singleton puisqu’elles sont fortement différentes des autres unités spatiales et de leurs voisines en particulier. L’apport spécifique de la régionalisation consiste surtout ici à mettre en valeur la proximité des trois régions atlantiques (BRET, PDLO et NAQU) qui se regroupent du fait de leur proximité à la fois politique et spatiale. Une comparaison avec les arbres de classification précédents montre logiquement des regroupements plus tardifs du fait de l’impossibilité de rassembler certaines régions non voisines. Une régionalisation aboutit nécessairement à des regroupements moins homogènes qu’une classification du fait des contraintes spatiales qui lui sont imposées..
1.5 Conclusion
Au final, ce petit exercice souligne la complexité des options possibles du fait du nombre de choix qu’il faut opérer pour réaliser une classification et, a fortiori une régionalisation. Encore n’avons nous pas fait état de l’ensemble des solutions alternatives, notamment celles qui se fondent sur des méthodes de classification descendantes (ref.) ou sur des méthodes de type noyau mobile.
Mais la question la plus fondamentale est probablement la suivante : quel est l’apport d’une régionalisation par rapport à une classification pour l’analyse d’un phénomène social ? Puisque nous avons vu qu’une régionalisation est par définition moins efficace qu’une classification pour constituer des groupes homogènes, il faut que la prise en compte des contraintes spatiales apporte un avantage décisif à la régionalisation pour choisir de la mettre en oeuvre. Ce qui suppose que la matrice de proximité spatiale ait un sens pour la personne qui va interpréter les résultats.
C’est ce point que nous allons maintenant explorer en étudiant l’ensemble des résultats des élections européennes à trois niveaux d’agrégation.
2 ECHELLE DEPARTEMENTALE : CLASSIFICATION ET REGIONALISATION HIERARCHIQUES
La réalisation d’une classification et d’une régionalisation des résultats des élections européennes va être menée à différentes échelles, depuis le niveau des régions jusqu’à celui des circonscriptions en passant par le liveau départemental. L’objectif sera de construire des classes ou des régions présentant des profils électoraux homogènes en matière de vote.
Préalablement à ces analyses, il est important d’analyser la distribution des votes afin de distinguer l’implantation spatiale des listes candidates au scutin afin de repérer celles qui vont le plus contribuer aux différenciations au niveau national ou au niveau local.
2.1 Analyse des listes
Les électeurs français ont eu le choix entre 38 listes lors des élections européennes de juin 2024. Mais seule une partie d’entre elles a connu une audience nationale et beaucoup de petites listes n’ont même pas été capable de fournir des bulletins dans tous les bureaux de votes.
2.1.1 Loi rang-taille ?
La distribution du pourcentage de votes en fonction du rang des listes suit une loi exponentielle presque parfaite (\(r^2 =0.98 , p < 0.001\))
| Variable dépendante | |
| % de votes reçus par une liste (log) | |
| Rang de la liste | -0.247*** |
| (0.006) | |
| Constant | 2.989*** |
| (0.133) | |
| Observations | 38 |
| R2 | 0.980 |
| Adjusted R2 | 0.979 |
| Residual Std. Error | 0.402 (df = 36) |
| F Statistic | 1,725.409*** (df = 1; 36) |
| Note: | p<0.1; p<0.05; p<0.01 |
2.1.2 Typologie
La régularité de la loi précédente ne permet pas d’établir une rupture nette permettant de séparer grandes et petites listes. Mais une typologie combinant le logarithme du score national en % et l’indice de concentration de Gini par circonscription permet de mieux distinguer des listes mineures ayant obtenu des votes dans un petit nombre de circonscription et des listes d’audience nationale ayant obtenu des voix dans un nombre plus important de circonscriptions même lorsque leur score est faible.
[1] "1" "2"
Il existe une corrélation négative entre le score national d’une liste et sa concentration mesurée par l’indice de Gini. Les listes les plus impôrtantes sont en général celles qui sont le mieux réparties tandis que les petites listes ont en général concentrés les suffrages dans quelques circonscriptions. Cette règle connaît toutefois des exceptions. Ainsi la liste “Alliance rurale” conduite par Jean Lassalle, bien implanté dans le Sud-Ouest, a obtenu un score national assez élevé (2.4%) tout en affichant un indice de concentration assez fort (0.41). Inversement, la liste du parti NPA “Pour un Monde sans fronières ni patrons …” conduite par Selma Labib a recuilli très peu de voix (0.16%) mais beaucoup mieux réparties dans un nombre important de ciconscriptions avec un indice de concentration faible (0.16) comparable à celui des listes les plus importantes.
2.2 Classification
2.2.1 Choix de la matrice de dissimilarité
On choisit comme matrice de dissimilarité le coefficient de divergence c’est-à-dire la part des électeurs qui devraient changer de votes pour que les deux unités spatiales affichent le même profil électoral. Cet indice correspond à la moitié de la distance de Manhattan entre les profils en pourcentage :
\(\frac{1}{2} \sum_{p=1}^{38} {|\frac{X_{ip}}{X_{i.}} - \frac{X_{jp}}{X_{j.}}|}\)
On peut illustrer le calcul en prenant l’exemple de la plus forte dissimilarité qui est observée entre le département de l’Aisne (02) et le département de Paris (75) :
Info -- For this coefficient, sqrt(D) would be Euclidean
Info -- This coefficient does not have an upper bound (no fixed D.max)
| Aisne (02) | Paris (75) | dif | difabs | |
|---|---|---|---|---|
| DEHER-LESAINT | 0.0 | 0.0 | 0.0 | 0.0 |
| PONGE | 0.0 | 0.0 | 0.0 | 0.0 |
| MARÉCHAL | 5.0 | 5.9 | -0.9 | 0.9 |
| AUBRY | 5.3 | 16.8 | -11.5 | 11.5 |
| BARDELLA | 50.6 | 8.5 | 42.1 | 42.1 |
| TOUSSAINT | 2.4 | 10.7 | -8.3 | 8.3 |
| AZERGUI | 0.0 | 0.0 | 0.0 | 0.0 |
| THOUY | 2.4 | 1.2 | 1.2 | 1.2 |
| TERRIEN | 0.0 | 0.0 | 0.0 | 0.0 |
| ZORN | 0.1 | 0.4 | -0.3 | 0.3 |
| HAYER | 11.3 | 17.7 | -6.4 | 6.4 |
| ALEXANDRE | 0.0 | 0.0 | 0.0 | 0.0 |
| CHOLLEY | 0.2 | 0.4 | -0.3 | 0.3 |
| WEHRLING | 0.3 | 0.3 | 0.0 | 0.0 |
| ASSELINEAU | 0.9 | 0.8 | 0.1 | 0.1 |
| SIMONIN | 0.0 | 0.0 | 0.0 | 0.0 |
| FORTANÉ | 0.0 | 0.0 | 0.0 | 0.0 |
| BELLAMY | 6.2 | 10.5 | -4.2 | 4.2 |
| ARTHAUD | 0.7 | 0.3 | 0.5 | 0.5 |
| LARROUTUROU | 0.0 | 0.1 | -0.1 | 0.1 |
| RENARD-KUZMANOVIC | 0.1 | 0.1 | 0.0 | 0.0 |
| LABIB | 0.1 | 0.1 | 0.0 | 0.0 |
| ADOUE | 0.0 | 0.0 | 0.0 | 0.0 |
| PHILIPPOT | 0.9 | 0.6 | 0.3 | 0.3 |
| HUSSON | 0.0 | 0.0 | 0.0 | 0.0 |
| BONNEAU | 0.0 | 0.0 | 0.0 | 0.0 |
| GLUCKSMANN | 7.8 | 22.9 | -15.1 | 15.1 |
| HOAREAU | 0.0 | 0.0 | 0.0 | 0.0 |
| LASSALLE | 2.2 | 0.4 | 1.8 | 1.8 |
| LALANNE | 0.0 | 0.0 | 0.0 | 0.0 |
| LACROIX | 0.2 | 0.2 | 0.0 | 0.0 |
| ELMAYAN | 0.0 | 0.0 | 0.0 | 0.0 |
| DEFFONTAINES | 2.3 | 1.4 | 0.9 | 0.9 |
| COSTE-MEUNIER | 0.0 | 0.0 | 0.0 | 0.0 |
| GOVERNATORI | 0.8 | 0.6 | 0.2 | 0.2 |
| TRAORÉ | 0.0 | 0.0 | 0.0 | 0.0 |
| PATAS D’ILLIERS | 0.0 | 0.0 | 0.0 | 0.0 |
| GRUDÉ | 0.0 | 0.0 | 0.0 | 0.0 |
| Total | 100.0 | 100.0 | 0.0 | 94.5 |
La somme des différences de vote est égale à 94.5 points de pourcentage. En divisant par deux on obtient une valeur de 47.2 qui est le pourcentage de vote qu’il faudrait modifier dans l’un ou l’autre département pour aboutir à des profils similaires. Le coefficient de divergence est compris entre 0 (votes identiques) et 100 (aucun vote commun).
2.2.2 Résultats de la classification
L’application d’une méthode de classification ascendante hiérarchique à la matrice de dissimilarité fait apparaître assez nettement cinq classes qui regroupent souvent des départements voisins mais sans pour autant former des régions.
Une analyse des profils permet ensuite de caractériser ces classes.
| Classe1 | Classe2 | Classe3 | Classe4 | Classe5 | Profil | |
|---|---|---|---|---|---|---|
| BARDELLA | 1.50 | 7.52 | -3.97 | -2.43 | -13.69 | 33.88 |
| HAYER | -0.55 | -1.31 | 2.56 | -1.05 | 1.23 | 14.11 |
| GLUCKSMANN | -0.91 | -2.78 | 2.01 | 2.46 | 2.85 | 13.43 |
| AUBRY | 0.74 | -1.89 | -1.24 | -1.94 | 8.59 | 8.28 |
| BELLAMY | -0.32 | -0.17 | 0.19 | -0.34 | 1.06 | 7.12 |
| MARÉCHAL | 0.10 | 0.38 | -0.42 | -0.36 | -0.04 | 5.34 |
| TOUSSAINT | 0.03 | -1.47 | 1.15 | -0.38 | 2.44 | 4.90 |
| LASSALLE | -0.79 | -0.12 | -0.36 | 3.66 | -1.94 | 3.08 |
| DEFFONTAINES | -0.10 | -0.03 | -0.08 | 0.75 | -0.47 | 2.53 |
| THOUY | 0.09 | 0.20 | -0.07 | -0.24 | -0.30 | 2.07 |
| GOVERNATORI | 0.11 | -0.13 | 0.18 | -0.16 | 0.04 | 1.23 |
| ASSELINEAU | 0.04 | -0.02 | -0.05 | 0.11 | -0.03 | 1.02 |
| PHILIPPOT | 0.04 | 0.05 | -0.05 | 0.04 | -0.17 | 0.95 |
- la classe 1 est assez proche du profil moyen avec une légère sur-représentation des votes Bardella (+1.5) et Aubry (+0.79), associée à une sous-représentation des votes Glucksman (-0.91), Lassalle (_0.79), Hayer (-0.55) et Bellamy (-0.32).
- la classes 2 est caractérisée par la très forte surreprésentation du vote d’extrême droite pour Bardella (+7.5), Maréchal (+0.38) ou Philippot (+0.05) ainsi que le parti animaliste (+0.2) associé à une sous-représentation des autres partis, en particulier de Glucksmann (-2.78) et Toussaint.
- la classe 3 surreprésente les votes des partis centristes, qu’il s’agisse du centre-gauche (Hayer : +2.56), du centre-droit (Glucksman : +2.01) ou des écologistes (Toussaint : +1.15) et elle sous-représente les partis d’extrême-droite mais aussi d’extrême gauche.
- la classe 4 s’inscrit plutôt dans une spécificité régionale du Sud-Ouest caractérise par l’importance du vote Lassalle (+3.66) et du vote Deffontaines (+0.75), associé au vote de centre-gauche de la liste Glucksmann (+2.46). Comme dans le cas précédent, on observe une faiblesse du vote pour les partis d’extrême droite ou d’extrême gauche.
- la classe 5 correspond enfin à un vote des grandes métropoles caractérisé par un score exceptionnel de la liste Aubry (+8.59), associé à une surreprésentation des votes pour les autres partis de gouvernement de droite (Bellamy : +1.06, Hayer : +1.23) ou de gauche (Glucksmann : +2.85, Toussaint : +2.44)
2.3 Régionalisation
2.3.1 Matrice de contiguïté
On calcule la matrice de continguïté au niveau départemental à l’aide
des fonctionspoly2nb() et nb2listw()du package
spdep. Puis on les viusalise cartographiquement.
2.3.2 Dissimilarités locales
Avant de procéder à la régionalisation, on peut visualisser les
discontinuités en extrayant les frontières des unités spatiales à l’aide
de la fonction getBorders()du package
cartography et en effectuant une jointure avec les
valeurs de dissimilarité (Grasland 1997). On pourra ainsi
repérer les limites qui séparent des départements très ressemblants
(donc susceptibles de se regrouper en régions) ou au contraire très
différents (qui seront probablement localisés dans des régions
différentes).
Les discontinuités les plus remarquables sont celles qui séparent les départements d’Ile-de-France du reste du Bassin Parisien (ex. dissimilarité de 26 points entre Yvelines et Eure) mais aussi les départements franciliens entre eux (ex. dissimilarité de 33 points entre Seine-Saint-Denis et Paris). On retrouve également de très fortes différences entre les départements qui abritent les grandes métropoles de province (Lyon, Toulouse, Nantes, Lille, …) et leurs voisins. Mais il apparaît également des discontinuités entre certains départements plus ruraux. A l’inverse, on reprère des groupes de départements peu différents les uns des autres dans les Alpes, le sud du Bassin Parisien ou le Centre-Ouest. La carte des discontinuités permet donc d’anticiper les regroupements les plus probables qui vont intervenir au cours de l’étape de régionalisation.
Une approche différentes, proposée par les écologues, consiste à mesurer la contribution des unités spatiales et des variables les décrivant à la production des dissimilarités au niveau global et local. Cette approche est classiquement menée à l’aide de mesures basées sur la variance, mais les auteurs proposent de la généraliser à une mesure quelconque de dissimilarité ce qui permet une meilleure adéquation à la problématique (Legendre, De Cáceres 2013). Et qui permet d’appliquer la méthode non pas à l’ensemble des dissimilarités (comme dans une ACP ou une CAH) mais uniquement aux dissimilarités locales.
2.3.3 Résultats de la regionalisation
La réalisation d’une régionalisation ascendante hiérarchique est très
simple avec la focntion constr.hclust()du package
adespatial. Il faut juste transformer au préalable la
matrice de voisinage créé par spdep en une fonction de proximité propre
à ce logiciel à l’aide de la fonction listw2sn(). On
obtient alors un objet de type hclust comparable à celui que
l’on a obtenu en réalisant une classification et utilisant exactement
les mêmes paramètres de dissimilarité et d’algorithme de regroupement.
On peut donc classiquement visualiser l’arbre de classification et
examiner la hiérarchie des noeuds afin de choisir le nombre optimal de
régions.
L’arbre de classification et l’indice de hiérarchie des noeuds mettent tout d’abord en valeur les partitions en 2, 3 ou 4 classes qui se détachent très clairement des regroupements ultérieurs. On observe toutefois que la régionalisation en 2 classes est moins efficaces que la partition en deux classes ce qui peut suprendre un utilisateur habitué à utiliser des méthodes fondées sur la distance euclidienne au carré et la variance. Ce résulat est en fait logique dans la mesure où nouss avons utilisé une métrique non euclidienne (Guénard, Legendre 2022). Dans notre exemple, il signale que le premier niveau de découpage de la France en régions électoral n’est pas une oppostion nord-est/sud-ouest mais un découpage en trois entités qui isole la région Ile-de-France. Quant au découpage en quatre régions, il met en valeur à l’intérieur de la France du nord-est le cas de la partie nord et est du bassin parisien qui est singulièrement différente du reste de la France du Nord-Est. Au delà de cette partition en quatre classes, on observe une suite de partition de niveau voisins jusqu’au 9e noeuds de l’arbre où apparaît une discontinuité nette, ce qui incite à retenir une partition en 10 régions. Le niveau de dissimilarité de ce découpage en 10 régions sera approximativment le même que celui que nous avios utilisé précédemment pour réaliser une classification comportant cinq classes. Ce qui confirme qu’une régionalisation est par définition moins efficace qu’une classification puisqu’elle doit comporter deux fois plus de groupes pour aboutir au même niveau d’homogénéité.
On peut représenter les quatre niveaux de régionalisation en
effectuant un découpage de l’arbre à l’aide de la fonction
cutree et d’un logiciel quelconque de cartographie
thématique dans R comme mapsf.
Mais on peut également utiliser la fonction
plot:constr.hclust() du package adespatial
à condition de lui fournir les centroïdes des unités spatiales. On peut
alors visualiser la façon dont le graphe de contiguïté a été segmenté
pour aboutir à une régionalisation. Il est alors intéressant d’y
superposer la carte des discontinuités pour mieux voir comment les
régions réspectent dans la mesure du possible les frontières
correspondant aux plus fortes différences entre unités voisines.
On procède maintenant à l’analyse des écarts au profil moyen en reprenant la même procédure que pour la classification. Pour faciliter l’analyse, on recode les noms de régions pour combiner les partitions en trois régions (Nord-Est = NE, Sud-Ouest = SO, Ile-de-France = IF) et la partition en 10 (les quatres sous-régions du Nord-Est sont codées NE1,NE2,NE3,NE4, les trois régions du Sud-Ouest SO1, SO2, SO3 et les trois régions d’Ile-de-France IF1, IF2,IF3)
| NE1 | NE2 | NE3 | NE4 | SO1 | SO2 | SO3 | IDF1 | IDF2 | IDF3 | Profil | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| BARDELLA | 2.57 | 9.65 | 4.04 | -4.51 | -4.33 | -1.37 | -5.42 | -18.93 | -5.51 | -17.00 | 33.88 |
| HAYER | 0.29 | -1.26 | -2.24 | 0.67 | -0.73 | -0.98 | 3.59 | 3.38 | -0.90 | -5.80 | 14.11 |
| GLUCKSMANN | -1.49 | -3.85 | -0.93 | 1.15 | 4.02 | 1.53 | 2.81 | 3.81 | -1.09 | -0.67 | 13.43 |
| AUBRY | -1.12 | -1.84 | 0.20 | 1.11 | -1.16 | -1.84 | -1.54 | 8.29 | 9.55 | 28.84 | 8.28 |
| BELLAMY | 0.48 | -0.18 | -1.28 | 0.33 | -1.79 | 0.77 | 0.30 | 3.40 | -0.52 | -3.08 | 7.12 |
| MARÉCHAL | 0.11 | -0.28 | 1.12 | 0.37 | -0.27 | -0.54 | -0.70 | 0.91 | -0.13 | -1.63 | 5.34 |
| TOUSSAINT | -0.62 | -1.63 | -0.46 | 2.32 | 0.31 | -0.46 | 1.45 | 2.79 | 0.05 | 1.75 | 4.90 |
| LASSALLE | -0.51 | -0.41 | -0.14 | -1.16 | 3.69 | 2.27 | -0.36 | -2.43 | -1.99 | -2.44 | 3.08 |
| DEFFONTAINES | -0.11 | -0.14 | -0.03 | -0.63 | 0.42 | 0.99 | -0.15 | -0.69 | -0.35 | 0.29 | 2.53 |
| THOUY | 0.21 | 0.38 | -0.16 | -0.24 | -0.31 | -0.09 | -0.14 | -0.42 | 0.29 | -0.45 | 2.07 |
| GOVERNATORI | 0.06 | -0.11 | -0.10 | 0.25 | -0.07 | -0.11 | 0.18 | -0.12 | 0.12 | -0.34 | 1.23 |
| ASSELINEAU | 0.00 | -0.13 | 0.13 | 0.09 | 0.12 | 0.04 | -0.13 | -0.06 | 0.19 | 0.09 | 1.02 |
| PHILIPPOT | 0.07 | -0.03 | 0.12 | 0.00 | 0.04 | -0.03 | -0.10 | -0.21 | -0.03 | -0.18 | 0.95 |
Trois des quatre sous-régions qui composent la région Nord-Est se caractérisent par une surreprésention générale des votes pour les listes de droite (Bellamy) ou d’extrême-droite (Bardella, Maréchal).
- La région NE1 de type droite et extrême droite occupe les franges sud du bassin parisien ainsi que l’Alsace et le nord de la Lorraine. Elle se caractérise par une légère sur-représentation du vote Bardella (+2.57) combinée à une sur-représentation des autres votes de droite (Bellamy +0.48, Hayer +0.29, Maréchal +0.11, Philippot +0.07) et une sous-représentaiton des listes de gauche (Glucksman -1.49, Aubry -1.12, Toussaint -0.62).
- la region NE2 de type bastion RN rural et ouvrier occupe le nord et l’est du bassin parisien de la Normandie à la Lorraine en passant par le Nord et la Champagne. Sa caractéristique principale est un score exceptionnellement élevé pour la liste Bardella (+9.65) et une faiblesse relative de toutes les autres listes à l’exception de la liste Thouy du parti animaliste.
- la région NE3 de type bastion d’extrême-droite diversifié correspond à un vote d’extrême droite mélangeant davantage le vote RN de la liste Bardella (+4.04) avec d’autres avatars de l’extrême-droite se traduisant par une surreprésentation des listes Maréchal (+1.12), Asselineau (+0.13) ou Philippot (+0.12). Comme dans le cas précédent, les autres listes de droite classique ou de gauche sont sous-représentés à l’exception de la liste Aubry (+0.2).
- la région NE4 de type métropolitain écologiste constitue une enclave à l’intérieur de la région NE regroupant la métropole Lyonnaise et le nord des Alpes. Elle affiche des caractéristiques très différentes voire opposées aux types prédédents. Elle se caractéristique par un score très élevé des écologistes (Toussaint +2.32, Gobernatori +0.23), ainsi que des partis de gauche (Aubry : +1.11) de centre-gauche (Glucksman +1.15) et de centre-droit (Hayer +0.67). Le vote Bardella y est nettement sous-représenté (-4.51) mais pas le vote de droite (Bellamy +0.33) ou d’extrême droite dans d’autres versions (Maréchal +0.37, Asselineau +0.09).
La région Sud-Ouest affiche un profil général très différent caractérisé par la faiblesse conjointe des votes d’extrême-droite (Bardella, Maréchal) et d’extrême-gauche et une surreprésentation des listes portées par les partis centristes de gouvernement (Hayer, Glucksman). Mais elle affiche trois variantes bien typées en raison du rôle de deux listes à forte composante régionale. - la région SO1 de type identité régionale sud-ouest regroupe les départements situés au Nord des Pyrénées, du pays Basque à Toulouse. Son originalité fondamentale réside dans le poids exceptionnel du vote pour la liste Alliance Rurale portée par Jean Lassalle (+3.69) combinée par un vote très élevé pour les listes socialistes (Glucksman +3.62) et communiste (Deffontaines +0.42). - la région SO2 de type radical-socialiste prolonge la région précéente vers le massif central, exception faite de la vallée de la Garonne acquise à l’extrême-droite. Elle conserve des caractéristiqes voisines de S01 mais en moins accentué. Elle aurait probablement fusionné avec la précédente sans l’obstacle constitué par les départements conquis par l’extrême-droite qui font obstacle à l’unification en une seule région. - la région SO3 de type ouest chrétien-démocrate associe les départements de Bretagne, Pays de Loire, Basse Normandie et nord de l’Aquitaine. Elle affiche une forte résistance au vote d’extrême-droite (Bardella -5.42, Maréchal -0.70) comme d’extrême-gauche (Aubry -1.54, Deffontaines -0.36) et concentre ses suffrages sur les listes des partis de centre-gauche (Glucksmann +2.81), de centre-droit (Hayer +3.59) ansi que les écologistes (Toussaint +1.45, Governatori +0.18)
La région Ile-de-France forme la troisième région, caractérisée par une résistance générale au vote d’extrême droite et une performance exceptionnellement élevée de la liste LFI portée par Aubry. Elle n’en comporte pas moins de très forts contrastes internes.
-la région IF1 de type métropolitain central regroupe Paris, les Hauts-de Seine, les Yvelines et le Val-de-Marne dans une catégorie caractérisée par le partage des votes entre listes des partis de gouvernement de centre-gauche (Glucksman +3.81) et de centre-droit (Hayer +3.38) ainsi que par des scores très élevés pour la liste LFI (Aubry +8.3), les écologistes (Toussaint +2.8) et la droite classique (Bellamy +3.4) ou les formes d’extrême-droite élitiste (Maréchal +0.70). -la région IF2 de type métropolitain périphérique regroupe les départements de grande couronne du Val d’Oise, de l’Essone et de Seine-et-Marne avec un rejet du rassemblement national beaucoup moins marqué (-5.4) et un vote toujours plus important pour la liste LFI de M. Aubry (+9.55). Les partis centristes ont désormais des scores légèrement plus faibles que leur moyenne nationale. - la région IF3 de type bastion LFI se limite à l’unique département de Seine-Saint-Denis dont la caractéristique unique est le score exceptionnel de la liste Aubry (+28.8) et à un degré bien moindre des écologistes (Toussaint +1.75) et communistes (Deffontaines +0.29)
2.4 Discussion
Quels sont les apports respectifs des deux approches de régionalisation et de classification ?
2.4.1 Intérêt et limites de la classification
L’analyse de classification offre obligatoirement un meilleur résumé de l’information contenue dans la matrice de dissimilarité dans la mesure où elle ne subit pas la contrainte de contiguïté qui est imposée à la régionalisation. Même si la méthode de classification ascendante hhiérarchique n’aboutit pas nécessairement à une solution optimale en matière de maximisation de l’homogénéité intra-classe et de l’hétérogénéité inter-classe (la méthode des k-means est a priori plus efficace mais plus coûteuse en temps de calcul), elle présente l’avantage de fournir des résumés à différents niveaux d’agrégation et de distinguer des types et des sous-types à l’intérieur de ceux-ci.
La limite de la méthode concerne sa visualisation cartographique qui laisse apparaître des blocs régionaux mais qui correspondent rarement à une classe unique. Les résultats n’ont pas vocation à produire une géographie du vote même si le commentaire des résultats fait appel à des notions de proximité et de localisation.
2.4.2 Intérêt et limites de la régionalisation
L’analyse de la régionalisation possède les mêmes propriétés de regroupement hiérarchique en régions qui se subdivisent ensuite en sous-région ce qui permet une analyse nuancée des oppositions principales et secondaires. L’analyse géographique des résultats permet donc bien de construire un commentaire multiscalaire partant des divisions principales (“Nord-Est/ Nord-Ouest/ Ile-de-France) pour extraire ensuite des subdivisions secondaires ce qui est la procédure habituelle de la description d’un espace géographique.
La limite de l’analyse tient ici au poids de la contrainte de contiguïté qui oblige à regrouper les entités à l’intérieur d’un ensemble d’unités voisines même lorsqu’elles sont séparées par des discontinuités extrêmement élevées. Ce qui aboutit à une hétérogénéité parfois très élevé des entités regroupées.
2.4.3 Autocorrélation et diffusion spatiale des comportements électoraux
Finalement le choix de l’une ou l’autre méthode dépend des hypothèses que l’on formule sur l’origine et les conséquences de l’autocorrélation spatiale des comportements électoraux.
Si l’on suppose que les causes du votes sont principalement d’ordre social et liées à des causes individuelles qui ne dépendent pas de la localisation géographique, alors la classification semble la solution la plus logique. Une fois identifiées les classes correspondant à tel ou tel type de comportement électoral, on pourra les mettre en rapport avec d’autres attributs des lieux tels que la richesse des habitants, les modes d’habitat, l’accessibilité au services, etc.
Si l’on suppose au contraire que les comportements électoraux de propagent dans l’espace à la faveur de processus d’imitation ou d’identification, alors il semble pertinent de regrouper des lieux proches en région qui sont susceptibles de voir leurs attitudes électorales converger au cours du temps. La régionalisation est alors un outil pertinent de prospective ou de stratégie.
3 ECHELLE DES CIRCONSCRIPTIONS : GRADIENTS URBAINS OU DISCONTINUITES ?
La reproduction des analyses précédentes au niveaux des 535 circonscriptions législatives constitue de prime abord un avantage puisque ces unités spatiales ont des populations beaucoup plus proches entre elles que les départements. La loi impose en effet des seuils miniumum et maximum de population à ces unités afin d’assurer une représentation équitable des citoyens à l’Assemblee Nationale. Malgré les exceptions (départements peu peuplés ayant au moins un député) et les manipulations de limites pour favoriser tel ou tel parti (gerrymandering),les circonscriptions sont un cadre idéal d’observation des résultats des élections européennes … surtout lorsqu’elles sont suivies d’une dissolution de l’Assembléen Nationale comme ce fut le cas en 2024.
Ce changement d’échelle entraîne toutefois un saut de complexité dans l’analyse puisque les oppositions entre les espaces ruraux, périurbain et métropolitain qui étaient encore peu visibles à l’échelle d’observation des départements sont désormais fondamentaux et créent pour beaucoup de partis politiques des distribution en “peau de léopard” composés de taches isoles (e.g.liste LFI présente surtout en ville) ou de nappes percées de trous (e.g. vote RN majoritaire dans les zones rurales et fortement réduit dans les métropoles). La question est alors de savoir si la transition entre espaces métropolitains et ruraux s’opère de façon graduelle (hypothèse du gradient d’urbanité) ce qui autoriserait la création de régions de proche en proche. Ou si on passe brutalement d’un comportement à un autre ce qui ferait des métropoles des enclaves bien délimitées cernées par des discontinuités.
Une carte publiée par O. Finance dans Cybergeo à propos du premier
tour des élections présidentielle de 2022 à l’échelle des
intercommunalités montre clairement l’existence d’une double structure à
la fois régionale et métropolitaine :
L’auteur précise que la carte combine en fait des variables de niveau (structures des votes en 2022) et des variables d’évolution (entre les élections de 2017 et 2022) :
Cette carte a été construite à l’aide d’une Classification Ascendante Hiérarchique. Elle synthétise 9 variables décrivant la structure du vote en 2022 (abstention, vote blanc, vote pour chaque famille politique) et 9 variables similaires décrivant l’évolution du vote entre 2017 et 2022. Ces variables sont toutes standardisées et décrivent donc pour les 9 premières des écarts par rapport au vote de l’ensemble des intercommunalités, pour les 9 suivantes des variations positives ou négatives par rapport à l’évolution constatée au niveau de l’ensemble des intercommunalités. Source : Finance O., 2022, Cybergeo Conversation
La structure obtenue combine à la fois un archipel métropolitain (classe représentée en rouge) et des blocs régionaux bien identifiables indiquant une forte autocorrélation spatiale des votes dans les espaces non métropolitains.
3.1 Données
On charge les fichiers de circonscriptions en con construit la matrice de dissimilarité en utilisant la même procédure que pour les départements.
Info -- For this coefficient, sqrt(D) would be Euclidean
Info -- This coefficient does not have an upper bound (no fixed D.max)
On prépare ensuite la la matrice de contiguïté des circonscriptions en suivant là encore la procédure utilisée pour les départements :
Pour mieux visualiser les zones urbaines, on peut créer une carte par
anamorphose à l’aide de la procédure cartogramR() du
package cartogramR. On prend comme variable de poids le nombre de
votants ce qui donne des surfaces approximativement égales auw unités
spatiales.
3.2 Classification
La classification fait nettement ressortir une division en 4 classes, sans rupture manifeste au delà de ce seuil.
La cartographie de ces classes met en évidence une coupure évidente entre les espaces métropolitains et les espaces périphériques, cahcun d’entre eux se subdivisant ensuite en deux sous-types.
Le profil des quatre classes est assez simple à interpréter puisqu’ils’ordonne presque parfaitement en fonction du score de la liste du RN de Bardella.
| Metrop.1 | Metrop.2 | Periph.1 | Periph.2 | Profil | |
|---|---|---|---|---|---|
| BARDELLA | -16.65 | -10.18 | -0.97 | 10.55 | 31.57 |
| HAYER | 3.61 | -3.10 | 1.38 | -1.74 | 14.28 |
| GLUCKSMANN | 5.97 | -0.20 | 1.29 | -3.48 | 13.63 |
| AUBRY | 3.01 | 16.82 | -3.08 | -3.47 | 10.57 |
| BELLAMY | 2.78 | -1.91 | 0.21 | -0.63 | 7.16 |
| TOUSSAINT | 3.69 | 0.84 | 0.27 | -1.94 | 5.37 |
| MARÉCHAL | 0.32 | -0.95 | -0.04 | 0.23 | 5.37 |
| DEFFONTAINES | -0.70 | 0.16 | -0.03 | 0.25 | 2.41 |
| LASSALLE | -1.52 | -1.52 | 0.75 | 0.30 | 2.32 |
| THOUY | -0.45 | -0.16 | -0.03 | 0.25 | 2.03 |
| GOVERNATORI | -0.03 | -0.15 | 0.16 | -0.10 | 1.24 |
| ASSELINEAU | -0.13 | 0.08 | 0.05 | -0.03 | 1.00 |
| PHILIPPOT | -0.21 | -0.14 | 0.05 | 0.08 | 0.91 |
- Les espaces métropolitains centraux (Metrop. 1) votent beaucoup moins pour le rssembelemnt National (Bardella) et les partis à implantation régionale (Lassalle, Deffontaines), privilégiant les partis traditonnels de gouvernement (Hayer, Glucksman, Bellamy) ainsi que les écologistes (Toussaint), LFI (Aubry) ou la liste d’extrême-droite de Marechal.
- Les espaces métropolitains périphériques (Metrop. 2) correspondent aux zones d’implantation privilégiée de la France insoumise (Aubry), associée à une surreprésentation légère des votes communistes ou écologistes.
- Les espaces périphériques intégrés (Periph. 1) ont un profil moyen avec une légère sur-représentation des votes pour les partis de centre-droit ou de centre-gauche ainsi que des listes régionalistes (Lassalle).
- Les espaces périphériques marginalisés (Periph. 2) se caractérisent par une forte surrepéresentation du vote Bardella et une faiblesse du vote pour l’ensemble des autres partis de gouvernement.
3.3 Régionalisation
Comme on peut le constater, cette configuration des classes est a priori très défavorable à la constitution de régions sauf à fusionner les différents types mis en évidence par la classification. La carte des discontinuités entre les circonscriptions confirme l’existence de très fortes différences entre les zones urbaines et les espaces périurbainsou ruraux qui les entourent.
L’application de l’algorithme de régionalisation conduit pourtant à identifier des niveaux de découpage pertinents en 2, 3, 5 ou 12 régions.
La caertogaphie des découpages en 5 et 11 régions produit des résultats intéressants même si leur pouvoir explicatif est plus faible que celui de la classification.
Sans reprendre en détail l’analyse des profils de classe, on voit que la régionalisation en cinq classes est assez proche des résultats obtenus à l’échelle des départements. On retrouve en effet la singularité de l’Ile de France, de la Seine-Saint-Denis, de l’Ouest et dunord du bassin parisien. Quant à la régionalisation en 11 classes, elle met en valeur la singularité des trois plus grandes métropoles provinciales (Lille, Lyon, Marseille) ainsi qu les spécificiés du Sud-Ouest et des Alpes.
Le changement d’échelle ne modifie donc pas radicalement les conclusions obtenues au niveau départemental puisque les métropoles de taille moyenne (Rennes, Nantes, Bordeaux, Toulouse, Strasbourg, …) sont absorbées par les circonscriptions voisines. Seules les métropoles de taille suffisante pour se subdiviser en plusieurs circonscriptions législatives arrivent à émerger comme régions à cette échelle.
Bibliographie
Annexes
Source des données brutes
le fichier résultats-définitifs-par-circonscriptions.csv est accesible sur le site data.gouv.fr en suivant ce lien. Il présente les résultats définitifs des élections europénnes et a pour origine le Ministère de l’Intérieur. Comme il est très complexe (beaucoup de colonnes redondantes) nous l’avons modifié pour créer des fichiers ne contenant que les colonnes indispensables (effectifs)
le fichier candidats-eur-2024.xlsx est accessible sur le site data.gouv.fr en suivant ce lien. Produit par le ministère de l’intérieur il fournit une information detaillée sur les candidats de chacune des listes. Nous allons en extraire uniquement les caractéristiques des têtes de liste afin de produire un tableau de métadonnées sur les 38 têtes de listes.
le fichier indic-stat-circonscriptions-legislatives-2022.xls a été produit par l’INSEE et est accessible en suivant ce lien. Il fournit un ensemble de données de cadrage sociales et économiques sur les circonscriptions législatives de France à partir des données du recensement de 2022 et de quelques autres sources. Il ne sera pas utilisé directement mais peut servir pour des exercices complémentaires.
le fichier circo_composition.xls également accessible sur le même lien permet de mettre en rapport les circonscription avec les départements, les régions ou les communes. Sachant qu’une même commune peut participer à deux circonscriptions ou plus. On s’en servira principalement pour établir le lien entre circonscriptions et régions.
le fichier france_circonsscriptions_legislatives_2012.json contient un fonds de carte simplifié des circonscriptions législatives en vigueur depuis 2012. C’est une reprise du travail de Toxicode. L’Atelier de cartographie de Sciences Po à ensuite vérifié, nettoyé et généralisé le fond. Il est accessible sur le site data.gouv.fr en suivant ce lien. Il est beaucoup plus léger et mieux généralisé que le fonds de carte fournit par l’INSEE avec les deux ressources précédentes
Préparation des données géométriques
On charge le fichier des circonscriptions en ne conservant que les données de France métropolitaine hors Corse, soit 533 circonscriptions. On le projette en EPSG 2154 puis on l’agrège par département et régions pour disposer de trois fonds de cartes.
On affiche les trois fonds de carte pour vérification:
Préparation des données électorales
Nous allons extraire du fichier électoral les variables générales de cadrage (inscrits, votants, blancs,nuls, …) et les effectifs bruts de vote pour les candidats des différentes listes par circonscription. Ces deux tableaux seront ensuite agrégés par départements et régions
Vérifications
3.3.1 Agrégation
On vérifie tout d’abord que la procédure d’agrégation a bien donné bien les mêmes totaux au niveau des circonscriptions, départements et régions. Il apparaît que pour chaque niveau le nombre total d’inscrits est bien le même et il ne semble pas utile de vérifier les autres colonnes.
[1] 45704587
[1] 45704587
[1] 45704587
3.3.2 Jointure
On affiche trois cartes du vote pour la liste n°5 (Bardella) afin de vérifier si les jointures s’opèrent correctement entre données géométriques et statistiques.
Info session
| setting | value |
|---|---|
| version | R version 4.4.1 (2024-06-14) |
| os | macOS 15.1 |
| system | x86_64, darwin20 |
| ui | X11 |
| language | (EN) |
| collate | en_US.UTF-8 |
| ctype | en_US.UTF-8 |
| tz | Europe/Paris |
| date | 2024-12-27 |
| pandoc | 3.2 @ /Applications/RStudio.app/Contents/Resources/app/quarto/bin/tools/x86_64/ (via rmarkdown) |
| package | ondiskversion | source |
|---|---|---|
| adespatial | 0.3.24 | CRAN (R 4.4.1) |
| cartogramR | 1.2.0 | CRAN (R 4.4.1) |
| cartography | 3.1.4 | CRAN (R 4.4.0) |
| dplyr | 1.1.4 | CRAN (R 4.4.0) |
| ggplot2 | 3.5.1 | CRAN (R 4.4.0) |
| ggrepel | 0.9.6 | CRAN (R 4.4.1) |
| gt | 0.11.1 | CRAN (R 4.4.1) |
| ineq | 0.2.13 | CRAN (R 4.4.0) |
| kableExtra | 1.4.0 | CRAN (R 4.4.0) |
| knitr | 1.49 | CRAN (R 4.4.1) |
| mapsf | 0.12.0 | CRAN (R 4.4.1) |
| RColorBrewer | 1.1.3 | CRAN (R 4.4.0) |
| readxl | 1.4.3 | CRAN (R 4.4.0) |
| reshape2 | 1.4.4 | CRAN (R 4.4.0) |
| sf | 1.0.19 | CRAN (R 4.4.1) |
| spData | 2.3.3 | CRAN (R 4.4.1) |
| spdep | 1.3.6 | CRAN (R 4.4.1) |
| stargazer | 5.2.3 | CRAN (R 4.4.0) |
Citation
Grasland C (2024). “Classification et Régionalisation.”, doi:10.48645/xxxxxx https://doi.org/10.48645/xxxxxx,, https://rzine.fr/publication_rzine/xxxxxxx/.
BibTex :
@Misc{,
title = {Classification et Régionalisation},
subtitle = {Application aux résultats des élections européennes de 2024 en France métropolitiane},
author = {Claude Grasland},
doi = {10.48645/xxxxxx},
url = {https://rzine.fr/publication_rzine/xxxxxxx/},
keywords = {FOS: Other social sciences},
language = {fr},
publisher = {FR2007 CIST},
year = {2024},
copyright = {Creative Commons Attribution Share Alike 4.0 International},
}